a_list = [1,2,3,4,5,6]
print(a_list)
b_list = a_list

b_list.append(7)
print(a_list)

from wenet.utils.common import remove_punctuation_keep_quote

s = "[VOCALIZED-NOISE] 同志 来了 以后 吧 先到 停车场 对 这个 肇事 车辆 呃 [VOCALIZED-NOISE] 的 体味 进行 [VOCALIZED-NOISE] 那么 首先 对 方向盘 他 的 这个 座椅 和 这个 [VOCALIZED-NOISE] 呃 然后 对 这个 两位 这个 [VOCALIZED-NOISE] 嫌疑人 也 进行 [VOCALIZED-NOISE] 对他 的 这个 声波 脚 波 以及 胸 波 这个 气味 进行 提取"
print(remove_punctuation_keep_quote(s))

# test bpe tokenizer
from wenet.text.bpe_tokenizer import BpeTokenizer
symbol_table = "/Users/xuelonggeng/Documents/code/wenet_tencent/examples/tencent_data/s0_fsq/dict/tokens_10.15.txt"
bpe_model = "/Users/xuelonggeng/Documents/code/wenet_tencent/examples/tencent_data/s0_fsq/dict/bpe1000.model"
tokenizer = BpeTokenizer(bpe_model, symbol_table)
line = "THE▁BASIC▁WORD▁IMPORTANCE▁IS▁OFF▁LINE▁AS▁WELL"
print(remove_punctuation_keep_quote(line))
tokens, label = tokenizer.tokenize(line)
print(tokens)
print(label)
lines = "the basic word importance is off line as well"
tokens, label = tokenizer.tokenize(lines)
print(tokens)
print(label)